Negative Sampling
概要
NECはサンプルとノイズの数値的な確率を前提とするがNegative samplingはサンプルだけが必要(2)
目的関数
$ \log \sigma(\nu'_{w_o} \top \nu_{w_I}) + \Sigma_{i=1}^{k} \mathbb{E}_{w_i} \sim P_n (w) \bigl[\log \sigma(-\nu'_{w_i} \top \nu_{w_I})\bigr]
$ \nu_wと$ \nu'_wは入力と出力の分散表現 $ kはnegative sampleの数
$ \sigma(x) = \frac{1}{1+\exp(-x)}
メモ
当初のSkip-gramとは学習アルゴリズムが変わった以上にモデルが変わっているので注意が必要(1 p69) 小さいデータセットだと$ kは5~20、大きいと2~5が良さそう(2)
ノイズ分布の$ P_n(w)はハイパーパラメータになり、ユニグラム分布の3/4乗したものを使うのが一様分布やユニグラムを使うより良かった(1 p116, 2) 参考文献